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8096 світових даних є неструктурованими або слабоструктурованими. У зв'язку з цим, 
актуальною є проблема екстракції інформації та її подальше збереження у зручній для опрацювання 
формі. Для зручності екстракції даних у роботі запропоновано використання текстових шаблонів на 
основі словника ключових слів. Основною метою є розроблення методу виділення складових 
елементів для побудови текстового шаблону, а також розроблення методу кластеризації текстового 
шаблону. Проведено аналіз розроблених методів на прикладі роботи бібліотечної системи. 
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Вступ 

За даними досліджень, 8095 світових даних є неструктурованими або 
слабоструктурованими. У зв'язку з цим, актуальною є проблема екстракції 
інформації та її подальше збереження у зручній для опрацювання формі. 

Слабкоструктурованими даними є будь-які проміжні дані між структурованими 
й неструктурованими. Такі дані мають певні особливості. По-перше, структура 
даних може бути неповною, недовизначеною. По-друге, значення скалярних даних 
представлені у вигляді текстової інформації. По-третє, виникає проблема визначення 
приналежності даних, тому що не завжди можна однозначно судити про коректність 
оброблюваного документа. 

Однією з основних проблем у роботі зі слабоструктурованими даними є 
різноманітність даних. Питання різноманітності даних в інформаційних системах є 
складним, воно також включає в себе такі області, як групування даних за певними 
характеристиками без послідовного перекриття множин даних. 

Для вирішення цих питань у роботі пропонується застосування підходу побудови 
текстового шаблону на основі заданих ключових слів. Такий підхід допоможе 
відсіювати зайву інформацію та отримувати необхідні дані, уникаючи дублювань. 

Вхідною інформацією для віднесення тексту до текстового шаблону є 
текстовий файл будь-якого формату зі слабоструктурованим текстом. З файлу 
необхідно визначити базові характеристики на основі сформованого словника 
ключових слів (маркерів). 
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У даній роботі основною метою є розроблення методу виділення складових 
елементів для побудови текстового шаблону, а також розроблення методу 
кластеризації текстового шаблону. Проведено аналіз розроблених методів на 
прикладі роботи бібліотечної системи. 

1. Розроблення методу виділення складових елементів для побудови 
текстового шаблону 

Текстовий шаблон складається з послідовності речень А, Аь,.. А, та утворює 


кортеж | Т «(А Аз, А), а речення | А,,із-і, Кк  - з послідовності слів 


аззі - 1,1, 7 -Ї,п, яка, у свою чергу, зображується кортежем Г - аразіоі ду), 


Позначимо через ай довжину слова Й;; . Зміст (семантику) тексту Т позначимо 5(Т). 
Введемо множину ключових слів (маркерів) Кеу- Їкеу, КеУ» зе, 
шаблону, які містяться у досліджуваних текстах. У реченні г - (вада, 


знаходять ключове слово й, (а, є Кеу). 


Текстовий шаблон - це неструктурований або напівструктурований файл, який 
складається з послідовності речень, а речення - з послідовності слів. Зі всієї 
множини слів у документі вибираються тільки ті, що мають змістовне наповнення, 
тобто формується база даних «Ключові слова». 

Метод формування бази даних «ключові слова» (функція )) передбачає 
наступні етапи: 

Етап 1. Слабоструктурована текстова інформація розбивається на речення та слова. 

Етап 2. Відкидаються слова, що містять менше трьох символів. 

Етап 3. Здійснюється класифікація слів шляхом видалення з загального списку 
слів, які містяться в базі даних «Стоп-слова» та неінформативних слів і словосполучень. 

Етап 4. Формується загальний список слів у документі, при цьому зберігається 
інформація про їх форматування та місце в тексті. 

Етап 5. Загальний список слів модифікується в процесі стеммінгу, тобто 
відкидаючи закінчення слів, ми також видаляємо однакові слова з бази даних, але 
збільшуємо значення, що відповідає за кількість вживань цього слова в тексті, а ваги, 
що були попередньо присвоєні цим словам, додаються. Таким чином утворюється 
база даних «Ключові слова тексту». 

Користувач може вносити свої ключові слова і визначати їх вагу, таким чином 
спрямовуючи систему на виділення інформації, яка пов'язана з введеними 
ключовими словами. 

До бази даних «Стоп-слова» входять службові частини мови, тобто 
сполучники, а також займенники, вставні слова та інше. 

Метод виділення складових текстового документа також базується на понятті 
ваги речення 1 розрахований на опрацювання наукових статей. Основу аналітичного 
етапу в цій моделі складає процедура призначення вагових коефіцієнтів для кожного 
блоку тексту відповідно до таких характеристик, як: 

- розташування цього блоку в оригіналі; 

- частота появи в тексті; 

- частота використання в ключових реченнях; 
- показники статистичної значущості. 
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Сума індивідуальних ваг слів та речення, як правило, визначена після 
додаткової модифікації відповідно до спеціальних параметрів налаштування, 
пов'язаних з кожною вагою, дає загальну вагу речення Ї/ : 


У/еїо пі (27) - МогазУеіопи(/) - 10 Ріасе(/) - 10 Когтаг (У ) (1) 


Отже, найважливішими факторами для ваги речення вважатимемо формат та розташування. 

Для формування реферату виділяються речення з основної частини. 

Основна частина, у свою чергу, ділиться на фрагменти за підрозділами та розділами, 
введеними авторами. Вважається, що речення, що з'являються у вступній частині та 
висновках, мають більше інформативне значення, ніж речення із середини тексту (21. 

У першу чергу, введемо поняття ваги речення. Для цього формалізуємо елементи (1). 

Коефіцієнт розташування визначається як: 


п п 
» 0,9 |м 
п 


Пооши соипі 


«031 07«-1-«091 з (2) 


сойпі Пооши 


0, «0,1 


п 


Ріасе(П()««1101х 


2034-13 «07 


соипі 


де п - номер речення, а Пудр; - Загальна кількість речень у документі. Початок та 


кінець тексту оцінюються меншим значенням (бо це переважно вступ та висновок) 
0-1, а середина - 2. Також, якщо у документі є анотація, яка переважно знаходиться 
між заголовком і вступом, то цьому фрагменту тексту присвоюється Ріасе(/) - 4. 


Коефіцієнт форматування речення Ї/ визначається як: 
0, вирівнювання зліва або справа 
Когтаї (/) з І, вирівнювання поширині (3) 
2, вирівнювання по центру 


Речення, що мають вирівнювання зліва або справа вважаються менш 
значущими, бо це переважно зазначення автора, УДК, дати та іншої додаткової 
інформації. Основна частина тексту зазвичай має вирівнювання за шириною, тому 
речення з таким форматуванням оцінюються більше, а речення, вирівнювання яких є 
посередині: це, як правило, заголовки або підзаголовки, тому дістають найвищу 
оцінку важливості. 

Коефіцієнт У/огазУеіди п(/) визначається як середня вага слова у реченні (сума 
ваг усіх ключових слів, що входять до речення, поділена на кількість ключових слів 
у реченні), таким чином довгі речення не будуть мати переваги над короткими. 

Вага слова О визначається за формулою: 


У/еіїо (0) - Егедиепсу(О) -- Ріасе(О) -- Когтаг (0) -- Цзег(0) (4) 

Частотний коефіцієнт Егедиепсу(О) (їтедиепсу - частота) - відношення числа 

входження деякого слова (умога) до загальної кількості слів (ми/огах) документа. 

Таким чином, оцінюється важливість слова в межах окремого документа: 
угод 


Етедиепсу(О) - (5) 


уро каз 
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Коефіцієнт розташування Ріасе(О) визначається як функція належності до 
речення, де зустрічається слово, однієї з ключових фраз: «Ключові слова:» або 
«Ключевьге слова:». Якщо така фраза зустрілась, то коефіцієнт розташування рівний 
5, якщо ні - 0. 

Коефіцієнт форматування слова КогтаїО) визначається залежно від того чи 
слово виділене жирним, курсивом чи підкреслене. Якщо слово зовсім не 
відформатоване, то коефіцієнт дорівнює 0, якщо одним форматом, то - 1, якщо 
двома, то - 2, якщо трьома, то - 3. 

Показник  (зег(О) формується на основі оцінювання слова користувачем, 
Пег(О) є Їо..101. 

Вагові коефіцієнти, використані у формулі (1), отримані емпірично. У роботі 
ставилася задача не точного визначення їх значень, а встановлення ваги певних 
адитивних параметрів. Тому для цих коефіцієнтів важливим є порядок числа, а не 
його значення. 

Результатом методу виділення складових текстового документа є вектор, у 
якому для певних характеристик тексту використовуються бінарні ознаки, а для 
ключових слів - ваги. 

2. Розроблення методу кластеризації текстових шаблонів 

Кластеризація - це автоматичне розбиття елементів деякої множини на групи. 
Кластеризацію  проводитимемо модифікованим методом  к-найближчих сусідів. 
Удосконалення вказаного методу здійснено з тією метою, що основним недоліком 
цього методу є залежність якості розбиття від кількості заданих користувачем кластерів. 
У випадку розбиття наукових публікацій кількість кластерів наперед невідома. 

Існуючі методи кластеризації мають ряд обмежень для кластеризації наукових 
публікацій на наукові школи. Тому удосконалено метод К-середніх. 

Алгоритм кластеризації - це відображення /:Х -» ЇХ, |, яке будь-якому тексту 


хе Х ставить у відповідність мітку кластера Х'є їх 43 


Основна мета кластерного аналізу - знаходження груп схожих об'єктів у 

вибірці. Типи вхідних даних для кластерного аналізу: 
- опис об'єктів на основі характерних ознак; 
- матриця відстаней між об'єктами; 
- матриця подібності між об'єктами. 

Один з найбільших недоліків методу К-середніх і йому подібних полягає у тому, 
що вимагає попереднього вказання кількості кластерів, і від цієї кількості сильно 
залежить кластерне рішення. Тому в роботі вирішено модифікувати цей метод. 

Модифікований метод К-середніх полягає у виконанні таких етапів: 

1.Задаємо кількість кластерів К, М »єкК»-2, де М - кількість публікацій. 

На вхід методу отримуємо множину ЕД, поданих у вигляді числових векторів. 

Оскільки ознаки кластеризації (автор, наукова установа, назва, ключові слова) 
невпорядковані, то використовуватимемо метрику а ізольованих точок: 


1Ххеїх 


І(Х.х,У х) а - 
0,Х. хе Ух 


р 4 у 
4СХ, У) з УМСА, У А) У ОХ, УФ) У ІСХ.В, УВІ) ІСХС, УС), 
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де функція / повертає 1, якщо обидва її параметри мають однакові значення, та 0 в 
іншому випадку, Х,У -- електронні версії текстів наукових публікацій, Р -- 


кількість авторів в текстах публікацій Х,У, Г - сумарна кількість ключових слів, 


у» - сумарна кількість наукових установ, Х.Д, - значення автора х, публікації Х, 
Х.С - значення назви С наукової статті Х. 


х є К" називається ізольованою точкою множини Є, якщо будь-який окіл цієї 

точки не містить інших точок Е, крім самої х: 
0,хеу 
а(х, у)- ; 

Ііхау 

Будь-яка точка дотику множини Е є або граничною, або ізольованою. 

2. Обираємо К об'єктів, які вважатимемо центрами відповідних кластерів 
(центроїдами). Покласти номер кроку 5 -0. 

3. Формуємо вектор центроїдів бак зн ) (центрів ваги). 

Для кожного об'єкта знаходимо відстань до усіх центроїдів. Для знаходження 
відстані використовуємо Евклідову метрику. 

4. Шукається матриця відстаней до центроїдів кластерів і формуємо кластери 
збере 


І 


2 
Х; -еху| і 


Ко мМ 
піп | 2,2 
уч і 
де М - кількість публікацій, сх, - центроїд кластера з номером /. 


Після розрахунку матриці відстаней шукаються сильні зв'язки об'єкта з кластером. 
Сильним названо зв'язок між об'єктами Х та Х,, якщо значення відстані назв 


публікацій менше, ніж третина від максимальної відстані серед усіх назв публікацій: 


шах (СХ, Х 3, СХ, Х у) 


(ХХ) 
З 
5. Шукаємо вартість розбиття: 
к 5 
Созі з ЗУ , 
іс узі 
де К - кількість кластерів, |5 і - кількість об'єктів у кластері 5;, 4, - відстань до 


центру кластера 1. 
6. Шукаємо нові центроїди кластерів: 


Якщо |СХ і , ТО 5 - 5-1. Перейти на крок 3. 


- | СХ 


7. Якщо М»кК і Собі не задовольняє умовам локального оптимуму, К-КТі і 
перейти на крок 3. 

3. Апробація методу кластеризації текстових шаблонів 

Апробацію методу кластеризації текстових шаблонів здійснено на прикладі 
бібліотечних систем. 


64 О Н.Б. Шаховська, І.Б. Швороб 


155 1561-5359. Штучний інтелект, 2017, Ме 2 


Система кластеризації наукових публікацій може бути використана 
електронними бібліотеками для попереднього аналізу текстів та їх рубрикування. Ця 
задача вироджується у задачу класифікації, оскільки кількість кластерів, їх назви та 
ознаки (ключові слова) є відомими. 

Є такі первинні налаштування системи для попереднього рубрикування: 


ійСіивего Трете 


1 Оаїабазе 

2 Сотритїег 5аєпсе 
З Ргодгаттіпд 

4 Меблогк 

5 Зузієт апаїузіє 


Рис.1. Дані таблиці «СТизіег» 


ііМ/огаз М/ога іч Цизіег5 їй М/огаіз ї4 
1 діадгат ь 11 1 2 
2 даїа рт і 
3 1 7 
З фоситепі З і чи 
4 апаїузе 5 1 ІЗ 
5 ргоїосої 6 1 16 
6 аїдогійнт 7 1 14 
7 вузівт й і з 
з 2 
- са 1 2 7 
9 соде п 2 9 
10 соппесіїїоп 2 2 10 
1 оче з 2 18 
- РЕ 14 0 З Н 
15 | З 7 
13 кластер Р З б 
14 обчислення РР 12 
Рис. 2. Дані таблиці «КеуУ/ога» Рис. 3. Дані таблиці «СІав85ійсайоп» 


Для тестування роботи системи опрацьовано 134 файли наукових публікацій, 
поданих у форматі М5 УМ/ога. «Правильна» рубрика текстових документів відома 
наперед і встановлена експертно. 

Проаналізуємо якість рубрикації (ТР (/тие розіпуе) - кількість ЕД, правильно 
віднесених до категорії; ЕР (/аізе розійує) - помилка другого роду - кількість ЕД, 
неправильно віднесених до категорії; КУ (/аі5е ператує) - помилка першого роду - 
кількість ЕД, які неправильно відкинуті; ТМ (/тие пераїуе) - кількість ЕД, які 
правильно відкинуті): 

Середнє нормоване значення правильно рубрикованих документів становить 94 
Ум. Середнє нормоване значення неправильно віднесених до категорії документів 
становить 890, оскільки, як видно з рис. 2, майже усі класи мають спільні ключові 
слова. Середнє нормоване значення неправильно відкинутих документів становить 
690 1 середнє нормоване значення правильно відкинутих документів становить 4490. 
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Таблиця 1. Результати аналізу якості кластеризації 


Клас пТР ПЕР пЕМ пПтх 
Паїабазе 9390 1190 795 3396 
сотриєг 5сіепсе 9390 1390 795 25906 
Ргосгаттіпеє 9690 295 495 5090 
МеїмогКк 9495 690 690 6090 
зубіеті апаїузіє 9390 795 795 5090 


Далі проаналізовано залежність якості кластеризації від обсягу класів. У 
навчальній вибірці присутні класи з великою кількість представників і класи з 
малою кількістю представників (таблиця 2). Є класи, що містять більше, ніж 5095 


статей, інші містять тільки 29. 


Таблиця 2. Кількість статей за класами 


Клас К-сть 9 

Гагкаразе 21 1690 
сотрикєг 5сіепсе 74 5590 
Ргосгаттіпеє 31 23906 
Меїмогк З 495 
зузіет апаїузіяє 3 296 


При цьому зрозуміло, що чим більшою є «загальність» рубрики, тим важче її 
кластеризувати. Рис. 4 експериментально підтверджує цю гіпотезу. 


60 


50 


40 


30 


20 


дагаразе сотриїег 8сіепсе 


ргодгаттіпд 


пеїмиогк 


зузвіет апаїубіє 


---- У помилок 
-в-- статей від заг 


Рис. 4. Залежність помилки першого роду від обсягу вибірки 


Кореляційний момент між обсягом вибірки в класі та кількістю помилок 


першого роду становить 0,759. 


Аналогічною є залежність і для помилки другого роду. 
Далі проаналізуємо якість кластеризації від кількості ключових слів, що Її 
описує, а також від ступеню їх перетину. Алгоритм тестувався на чотирьох колекціях 
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вхідних даних з однаковою кількістю об'єктів у кожному з класів, але з різною 
кількістю ключових слів та з різною кількістю спільних для класів ключових слів. 
Результати аналізу подано у таблицях 3 та 4. 


Таблиця 3. Залежність якості кластеризації від кількості ключових слів 


Колекція 1 Колекція 2 

Клас к-сть ключових слів | пТР | к-сть ключових слів | пТР 

Паїабазе / 87 16 88 
сотриї!ег 5сіепсе 11 67 26 62 
ргоггаттіпя 12 69 19 67 
пебмогК 6; 93 М 91 
зузіет апаїу5ія 4 94 5 89 

Таблиця 4. Залежність якості кластеризації від кількості спільних для кластерів 


ключових слів 


Колекція 3 Колекція 4 

Клас У, спільних ключових слів | пТР | 95 спільних ключових слів | пТР 
дахаба5е і) 69 12 591 
сотрикг 5сіепсе 14 59 98 44 
ргоггаттипя 13 61 21 47 
песуогК З 68 14 51 
зувіет апаїузія 2 12 14 62 

Як бачимо, якість кластеризації залежить більше від унікальності ключових 


слів у кластерах, а менше - від їх кількості. 

Наступним кроком є визначення якості кластеризації для різних методів. 

Для порівняння було проаналізовано результати роботи трьох інших 
алгоритмів на тих же колекціях. 

Були отримані наступні результати (значення ТР): 


Таблиця 5. Порівняння результатів роботи різних методів кластеризації 


Метод кластеризації пТР 
Розроблений метод кластеризації 0.92 
Острівна кластеризація 0.86 
К-середні 0.71 
Ауегаге ПК 0.78 


Таким чином, розроблений алгоритм продемонстрував кращі результати у значенні 
величини пТр на текстових колекціях порівняно з іншими розглянутими алгоритмами. 

Далі проаналізовано часову складність розробленого алгоритму кластеризації. 

Усі методи тестувались на тому ж наборі даних і на тому ж комп'ютері: Пе! 
Соге 2 Оцай Е6600 2.4 СН»7, 8 СВ КАМ, НОР УУР 2 ТВ 7200 КРМ. Для збереження 
даних використовувалась СКБД Містоб8ой 5ОЇ, Зегуег 2008 В2 Ремеіорег Баїбоп. 
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Таблиця 6. Час аналізу (с) текстових об'єктів залежно від об'єму 
проаналізованих даних 


Обсяг Розроблений Острівна К- Ауегаєе 
вибірки метод кластеризація середні ІлоК 
20 9 8 9 10 
50 12 11 13 13 
100 15 15 16 15 
150 13 17 21 21 
Висновки 


У роботі запропоновано метод виділення елементів для побудови текстового 
шаблону, а також метод кластеризації текстового шаблону. 

Використання текстових шаблонів на основі ключових слів дозволяє 
опрацьовувати фактично будь-який слабоструктурований текст, якщо для нього 
складено словник ключових слів. 

Зважаючи на результати дослідження, варто відзначити, що розроблений метод 
домінується лише методом острівної кластеризації. 

Як бачимо, час виконання аналізу даних суттєво відрізняється для різних 
методів. Жоден метод на практиці не досягає лінійної складності алгоритму аналізу 
даних залежно від розміру набору даних, що аналізуються. 
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КЕ5ОМЕ 

М.В. 5БаКроубка, І.В. 5Пуогоб 

Мефоа ої соп5ігисіїпє а Техі іетріаїе Їог ехігасбіпє іпіогтайоп Їгот 
5етіз5ігисіигеа Чака 

Опе ої Фе таїп ргобіетя млі зепліяігисцигеа дагіа 15 ре дуегяїсу ої даїа. Тре дпезпоп 
ої (Бе дегзіїу ої Чака їп іпогпацоп 5у5(етя 15 соппріех, 18 аї5о іпсІиде5 агеаз 5исП а5 даїа 
ягоцріпе ог сегіаїп спагасіегі5йся ууіпоці зедцепіа! оуегіарріпя ої 5еї5 ої 4аіа. 

То 580Їуе реве і55це5, Ше рарег 5иб2е515 и5іп5, Ше арргоасП іо соп5ігисйтя а їехі 
іетпріаге Ба5ед оп Ше 9іуеп Кеуууога5. ТРі5 арргоасп мулі ПеЇр (0 гепіує ехсе55 
іпфогтайоп апа обіаїп Фе песез5агу Мага, ауоійте диріїсайоп. 

А ехі (егаріаїе 15 ап ишп5йис(игед ог 5еппі5ігисіитед Ніе Шаї сопзі8і5 ої а 5едиепсе ої 
зепіепсез, апа 5епіепсез тот а зедиепсе ої мога. ОЇ Фе епбїге ріига! ої ууогаз іп Фе Фоситепі, 
опіу Шобе уліб сопіепі сопіепі аге 5еЇесіва, Фаї 15, Ше "Кеумуогав" дагабаве 15 Їогтей. 

Іп (Фіз рарег, Фе плаїп ригрове 15 (о деуеіор а теїод їог 5еЇесійпє соптропепі 
еіетепіз Їог соп5ігисйпя а (ехі іетпріаге, а5 уге! аз демеїоріпеє а тещоа Їог сіц5іегіпо а 
ехі іетріаїе. ТПе апаЇузі5 ої Ше деуеіоред теїродз оп Ше ехатріе ої уогК ої Де ПпБгагу 
зубіет 15 сагтіед оси. 

Тре гезиії ої Ше пейодй ої 5еЇесійпоя Ше сотропепіз ої а іех( Фоситепі 15 а уесіог 
іп уУріср Гог сегіаїп срагасіегізййся ої ре Кехі ц5ед Біпагу 5ієп5, апа Їог Кеуууогав - 
уусієрі8. Тре тешоа ої сІи5іегіпе а (ех іеппріаге ц5е5 ап ітргоува К-пледійт тешоа. 

Стуеп Фе гебиїкз ої Фе 5їиду, її 5поцід Бе покед Шаг (Пе деуеїоред пеіфод 15 опіу 
допипагеа бу Ше тефоа ої і5іапа сІиц5(егігацоп. ТПпе те ої Чака апаї/убіє 15 зієпійсапйу 
ФїНегепі Гог ФіНегепі птеФодз. Хо пешоа їп ргасіїсе дое5 пої аспіеуе Ше Ппеаг сотріехну 
ої Фе Ааіа апаїузі8 аЇдогійпт, дерепате оп Ше 5і7е ої Фе Чака 5еї Беїпє апаЇугеа. 
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